安全圈大佬博客爬虫计划
字数
700 字
阅读时间
3 分钟
更新日期
4/27/2019
看到Freebuf上那篇吃鸡分析的文章,数据分析还是强啊。很早的时候我就有QQ空间爬虫生成关系图的想法了,也实践写好了程序,如果多加些大佬,说不定可以直接从QQ空间爬虫,但是我加的人比较少,而且很多是自己的朋友,再加上深层次爬虫的时候很多大佬的QQ空间是关闭的,所以就不选择这个了。
博客爬虫
从另一个角度出发,从大佬们的博客入手。简述一下我的思路。
1.收集链接
以友情链接的方式深度爬取网站,通过判断一些关键词ctf|rce|xss|sql
等等来判断是否属于安全圈大佬。这个阶段用于采集足够多的数据样本,采集数据时也做好数据来源
与数据去向
的统计,方便做关系图。
2.深层次爬虫,数据获取
这个阶段爬取每个博客的深层次链接(广度优先),假定设定阈值为500层。将相关数据保存下来,以便后面分析。
3.数据分析阶段
虽然不知道这些数据有何用处,但总之就很厉害就行了~
- 数据源加入W12Scan扫描器,测试常规漏洞,统计各种漏洞出现比例
- 统计网站cms比率,网站使用技术(wappalyzer)比率。
- 统计博客建站类型,github,自建,还是cnblog之类
- 博客地理位置统计
- 博客IP端口开放,服务类型统计
- 收藏email,qq,电话等联系方式[正则匹配],找到出现次数最高的。
- 最常谈论的组件名称(采用seebug组件库进行分词)
- 博客发帖时间(哪些时间段发帖数量最大)时间频率统计
- 统计大佬昵称,统计出现次数最多的大佬昵称。
4.其他
除了数据分析,还有很多可以玩的地方。
- 博客关系力拓图,找寻博客之间的联系(朋友之间相隔几层?)
- 关键词监控博客新的内容
- 专门做一个大佬博客关系网站,聚合特定字段文章,定时更新任务数据。
嘴强王者
这些在技术上的实现都不困难,难的是没有时间做呀。所以记录此文,如果有其他人看到,欢迎有兴趣的一同完成~